Logistic regression

2025324

16:03

建模:

二分类问题,也就是求二项分布的概率p,由于p取值范围是[0,1],而线性模型wx+b的取值范围是[-inf,inf],所以对不直接用线性模型拟合pOdds=p/1-p,取值范围是[0,inf]log(odds)的取值范围是[-inf,inf],因此,用线性模型来拟合log(odds),然后再将log(odds)转换为p,就得到了分类概率。

log(odds)转换为p,用到的就是Sigmoid函数,log(odds)也称为logits.

 

策略(定义损失函数):

用线性回归模型来拟合log(odds),可以像线性回归一样用mse来优化吗?不可以。因为数据的标签y01log(odds)就是-infinf,也就无法计算mse

用似然函数作为loss,用线性模型计算得到的log(odds),转换得到P(x),似然likelihood =  ,取对数就变成了相加的形式,log(似然)=,   log(似然)即交叉熵损失函数。

 

多分类softmax回归:

同理,多分类即多项式分布,对每个类别c,求P(c).  

Pc)可以理解为 的形式,count的取值范围是[0,inf]log(count)的取值范围是[-inf,inf],那么就可以用线性模型来拟合log(count)log(count)logits每个类别都对应一个线性模型。

Log(count)转换为p,用到的就是softmax函数,log(count)logits

 

损失函数仍然是似然函数。

 

已使用 OneNote 创建。